مقایسه الگوریتم های برپایه یادگیری ماشین بر دقت تخمین داده های گمشده حاصل از آزمایش های ریزآرایه

Authors

مریم مشیری

دانش آموخته کارشناسی ارشد اصلاح نژاد دام، گروه علوم دامی، دانشکده کشاورزی، دانشگاه فردوسی مشهد، ایران مصطفی قادری زفره ای

استادیار گروه علوم دامی، دانشکده کشاورزی، دانشگاه یاسوج، ایران فرزان قانع گلمحمدی

دانش آموخته کارشناسی ارشد بیوتکنولوژی کشاورزی، گروه زیست شناسی سیستم ها، پژوهشکده بیوتکنولوژی کشاورزی ایران، کرج، ایران

abstract

وجود داده های گمشده در داده های ریزآرایه، سبب کاهش دقت رسم شبکه های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم بندی تخصصی ژن ها و سایر تحلیل ها می شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده های ریزآرایه، محسوب می شود. عملکرد الگوریتم-های تخمین در مجموعه داده های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایش های ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده های مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتم ها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتم های مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده ها وابسته است. همچنین تعداد نمونه های آزمایشی موجود در مجموعه داده ها نیز می تواند بر دقت الگوریتم های تخمین داده های گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتم ها با افزایش درصد داده های گمشده بود، اما الگوریتم های least square adaptive و local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده ها نسبت به سایر الگوریتم ها نشان دادند.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

مقایسه الگوریتم‌های برپایه یادگیری ماشین بر دقت تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه

وجود داده‌های گمشده در داده‌های ریزآرایه، سبب کاهش دقت رسم شبکه‌های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم‌بندی تخصصی ژن‌ها و سایر تحلیل‌ها می‌شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب می‌شود. عملکرد الگوریتم-های تخمین در مجموعه داده‌های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب‌ترین الگوریتم به منظور دستیابی به بیشترین دقت...

full text

مقایسه الگوریتم های متفاوت تخمین داده های گمشده در مجموعه داده های آزمایش های ریزآرایهcdna با شرایط گوناگون

تکنیک ریزآرایه dna، تکنولوژی معمول با عملکرد بالا برای نشان دادن سطوح بیان هزاران ژن بطور همزمان در شرایط مختلف است. این تکنیک، بیولوژی ملکولی را متحول ساخت. برخلاف بیولوژی ملکولی قدیمی، استفاده مفید ریزآرایه dna، نیازمند استفاده توام آمار و محاسبات جهت طراحی آرایه ها، طراحی آزمایشات و تجزیه تحلیل و مدیریت داده ها است. مهمترین کاربرد آن تعیین شباهت ژن های بیان شده در شرایط مختلف سلولی و مرتبط س...

ارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده

اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری  شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز ت...

full text

تاثیر داده های گمشده در نمودارهای رشد

سابقه و هدف: استفاده از منحنی رشد قدرتمندترین وسیله پایش رشد کودکان می باشد و از این طریق می توان انحرافات از الگوی رشد طبیعی را بموقع تشخیص داد. ریزش داده ها و مقادیر گمشده از مشکلات معمولی در تجزیه و تحلیل داده های طولی رشد محسوب می شود. لذا اهمیت دارد که با برآورد نمودن مقادیر گمشده، داده ها کامل شده و در مسیری مناسب و صحیح جهت تحلیل قرار داده شوند. مواد و روش ها: این مطالعه طولی طی دو سال ب...

full text

My Resources

Save resource for easier access later


Journal title:
پژوهش های سلولی و ملکولی

جلد ۲۸، شماره ۴، صفحات ۶۱۲-۶۲۲

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023